[レポート]AWSにおけるデータ分析のコスト最適化 #AWSreInvent

[レポート]AWSにおけるデータ分析のコスト最適化 #AWSreInvent

Clock Icon2024.12.07

こんにちは、AWS re:Invent2024参加中のデータ事業部の渡部です。

Spriteを飲み過ぎて少し気持ち悪くなっております。
12/2の1日目に参加したチョークトーク「ANT337-R | Cost optimization for data analytics on AWS」をまとめます。

なぜ参加したのか

支出を減らして、売上を増やせるようになるため!です。
利益は売上が多くても支出が同じように多ければ増えていきません。
ということでデータ分析のコスト最適化のセッションに足を運びました。

セッション概要

データ基盤・データ利活用においてのコスト最適化にむけてとれる選択肢についてよくまとめられているセッションでした。
データ連携・データ保管・データ利活用において、どうすればコストが抑えられるのか、また自分たちの環境の見直しにも使えると思います。

以下がセッション概要となります。

Learn strategies for optimizing total cost of ownership (TCO) for AWS analytics workloads. This session covers rightsizing compute resources, data storage optimization techniques, intelligent workload scheduling, serverless analytics, and cost monitoring tools. Gain insights into leveraging analytics services for distributed data processing with separation of storage and compute for cost-effective analytics while maintaining performance and scalability.

日本語訳

AWSの分析ワークロードにおける総保有コスト(TCO)を最適化するための戦略を学びましょう。このセッションでは、コンピューティングリソースの適切なサイジング、データストレージの最適化テクニック、インテリジェントなワークロードスケジューリング、サーバーレス分析、およびコスト監視ツールについて説明します。パフォーマンスとスケーラビリティを維持しながら、ストレージとコンピューティングを分離した分散データ処理のための分析サービスを、コスト効率よく活用するためのインサイトを得ることができます。

スピーカー

Shivagami Gugan, Chief Technologist Middle East and Africa, Amazon Web Services

Manos Samatas, Principal Solutions Architect, AWS

セッション内容

セッションスライドを抜粋しつつ、内容を以下にまとめます。

コスト最適化としての主要なアーキテクチャ原則は以下があげられます。

  1. 最新のデータアーキテクチャとツールを選択すること

  2. 必要な分だけのコンピュートとストレージを使用すること

  3. 適切なインフラストラクチャオプションを選択すること

  4. 自動化する(自動スケーリング、サーバーレス、自動チューニング)こと

  5. 目的に応じたフラグメンテーション、データパーティショニング、圧縮を使用すること

  6. コストを監視し最適化すること

IMG_8178

組織におけるデータの扱い方として最も重要なのは、データを製品として扱うという考え方です。
適切なデータの所有権を確立することで、不必要な冗長性や重複を排除できます。これは言うは易く行うは難しいことですが、データを重要な資産として扱い、適切な管理体制を確立することが重要です。

IMG_8179

データをどのように使いたいかによって正しいツールを選択する必要があります。

IMG_8180

データの構造化具合、データ取得に要するレイテンシによってもサービスを正しく選択する必要があります。

IMG_8181

例として、混雑する交差点に配置した防犯カメラのビデオストリーミングデータについてコスト分析をしたところ、コストの種類は3つにわけられました。
1つがデータ取り込み、2つ目がデータ保管、3つ目がデータ消費コストです。
これらを削減することがコスト最適化につながります。

IMG_8182

データ取り込みについて、活用できるのはZero-ETLです。
追加コストなく各種データソースからデータをDWHに取り込みが可能です。

IMG_8183

データ保管については、S3のストレージクラスを使い分けることが重要です。

IMG_8184

データ消費については、パーティションや圧縮を考えてファイル形式を採用することが重要です。

IMG_8185

サーバーの管理が必要ないサーバレスはインフラストラクチャの管理費を下げます。
サーバレスは必ずしも最安価というわけではないですが、サービスの使用率などをみて使用を検討しましょう。

IMG_8186

Gravitonプロセッサを使用するとコストが15%ほど同等のものより削減できます。

IMG_8187

AWSには複数の購入選択肢があるので、予算や使用期間・停止が許容されるワークロードなのかをもとに選択をしましょう。

IMG_8188

以上、レポートでした!

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.